Jul 20, 2025 3:45 AM
Jul 21, 2025 1:03 AM

LiverRisk评分:一种准确、具成本效益的工具,可预测普通人群的肝纤维化、肝脏相关及糖尿病相关死亡率

思路:别人的评分模型,在UKB、NHANES里做横断和随访研究(验证),加一点成本效益分析

普通人群进行肝纤维化非侵入性早期评估一直具有重要意义,同时也颇具挑战性。刘等人的研究表明,LiverRisk评分是一种准确且具成本效益的工具,可用于预测普通人群的肝纤维化、肝脏相关死亡率及糖尿病相关死亡率

摘要

背景:对肝纤维化进行非侵入性早期评估具有重要意义,但同时也颇具挑战性。本研究旨在评估LiverRisk评分在预测普通人群肝纤维化、肝脏相关死亡率及糖尿病相关死亡率方面的预测性能和成本效益。
方法:横断面队列(n=3770)纳入了2017年至2020年3月美国国家健康与营养调查(NHANES)、1999年至2018年NHANES以及2006年至2010年英国生物银行(UK Biobank)中的普通人群,同时纳入了NHANES随访队列(n=25317)和英国生物银行随访队列(n=17259)。采用TreeAge Pro软件进行成本效益分析。肝脏硬度测量值≥10 kPa被定义为代偿性晚期慢性肝病(cACLD)。
研究结果:与传统评分相比,LiverRisk评分在预测肝纤维化方面具有显著更高的准确性和校准度,其预测代偿性晚期慢性肝病(cACLD)的受试者工作特征曲线下面积(AUC)为0.76(0.72–0.79)。根据更新后的LiverRisk评分阈值(6和10),我们将人群重新分为低风险、中风险和高风险三组。LiverRisk评分预测5年、10年和15年肝脏相关及糖尿病相关死亡率的AUC均在0.8以上,表现优于Fibrosis-4评分。
此外,在两个随访队列中,与低风险组相比,中风险组和高风险组的肝脏相关及糖尿病相关死亡风险显著更高。
最后,成本效益分析显示,与FIB-4相比,LiverRisk评分每增加一个质量调整生命年(QALY)的增量成本效益比为18,170美元,低于50,000美元/QALY的支付意愿阈值。
结论:LiverRisk评分是一种准确且具成本效益的工具,可用于预测普通人群的肝纤维化、肝脏相关死亡率及糖尿病相关死亡率。

介绍

在普通人群中实现疾病的早期诊断一直是公共卫生领域的重要关注点。1,2 肝硬化作为一种造成巨大全球负担的疾病,每年在全球导致约100万人死亡,仅美国每年的住院费用就超过100亿美元。3,4 普通人群中肝纤维化的患病率在5%至7%之间。4,5 尽管临床关注主要集中在肝硬化及其相关并发症上,但具有可逆性的初始阶段却常常被忽视。

目前已开发出多种模型用于预测肝纤维化和不良预后6,7,但这些模型在普通人群中的诊断性能表现欠佳至中等8-10。当前,大多数指南仅建议对有慢性肝病风险的人群进行肝纤维化筛查。基于Fibrosis-4指数(FIB-4)的诊疗路径是目前应用最广泛的肝纤维化识别方法。欧洲肝脏研究协会、美国肝病研究协会和美国胃肠病协会的最新指南建议,在高危人群中,FIB-4≥1.3的个体应进一步接受瞬时弹性成像(TE)检查11-13。然而,这种筛查策略可能会遗漏那些风险因素不明或无风险因素的患者14。最近的一项随机对照试验表明,将FIB-4整合到自动化纤维化评分计算和电子提醒中,并未显著提高肝脏硬度测量值(LSMs)≥10 kPa和≥15 kPa的检出率。

最近,Serra-Burriel等人1开发了LiverRisk评分,用于预测普通人群的肝纤维化和肝脏相关结局。该评分基于简单参数,包括年龄、性别以及六项标准实验室变量(空腹血糖、胆固醇、天冬氨酸转氨酶[AST]、丙氨酸转氨酶[ALT]、γ-谷氨酰转移酶[GGT]和血小板计数)。通过在线计算器即可使用的LiverRisk评分,有助于识别普通人群的肝纤维化早期阶段。然而,在广泛应用之前,LiverRisk评分还需要更多验证。Serra-Burriel等人1的研究中概述了几个关键原因:首先,用于开发LiverRisk评分的衍生人群包含了一些肝病高风险队列(例如,有持续或既往酗酒史、存在代谢风险因素的个体);其次,该研究中的所有个体均来自欧洲国家,且超过90%为白人;最后,还需要进一步研究评估LiverRisk评分的成本效益,这对人群筛查至关重要。

因此,本研究旨在探索LiverRisk评分在人群筛查中的价值,并评估其成本效益。此外,鉴于糖尿病与肝病之间存在密切关联14,16-20,我们还研究了LiverRisk评分与糖尿病相关死亡率之间的关系。

方法

Study design and participants

本研究包含三个不同部分,由中国肝病健康联盟(CHESS)发起的慢性晚期肝病数字化管理(CDM)策略和糖尿病 - 肝病联合管理(CDL)策略指导开展。
第一部分的主要目的是评估 LiverRisk 评分在人群筛查中识别肝纤维化的准确性,并将其与传统无创工具进行比较。
第二部分旨在评估 LiverRisk 评分对肝脏相关死亡率和糖尿病相关死亡率的预测准确性及风险分层能力。
最后,第三部分是一项成本效益分析,用于评估基于 LiverRisk 评分的人群筛查护理路径。

在本研究中,我们纳入了三个普通人群队列:一个是来自 2017 年至 2020 年 3 月美国国家健康与营养检查调查(NHANES)的横断面队列,包含 3770 人;另外两个是随访队列,一个来自 1999–2018 年 NHANES,包含 25317 人(中位随访时间为 10.7 年),另一个来自 2006–2010 年英国生物银行(UK Biobank),包含 17259 人(中位随访时间为 15.0 年)。NHANES 和英国生物银行的详细信息已在其他文献中阐述。23,24

在最终分析中,我们仅纳入了这三个队列中年龄≥18 岁且具有完整基线或随访信息的个体的数据

Inclusion and exclusion criteria

横断面队列:纳入标准为 2017 年至 2020 年 3 月美国国家健康与营养检查调查(NHANES)中的所有个体,排除标准如下:(1)缺失肝脏硬度测量值(LSM)信息;(2)年龄<18 岁;(3)基线信息不完整(例如年龄、性别、空腹血糖 [空腹时间≥8 小时]、胆固醇、天门冬氨酸转氨酶 [AST]、丙氨酸转氨酶 [ALT]、γ- 谷氨酰转移酶 [GGT] 及血小板计数等)。

美国国家健康与营养检查调查(NHANES)随访队列:纳入标准为 1999–2018 年 NHANES 中的所有个体,排除标准如下:(1)年龄<18 岁;(2)基线信息不完整(例如年龄、性别、空腹血糖 [空腹时间≥8 小时]、胆固醇、天门冬氨酸转氨酶 [AST]、丙氨酸转氨酶 [ALT]、γ- 谷氨酰转移酶 [GGT]、血小板计数等);(3)缺失死亡相关信息,以及糖尿病相关死亡(死亡的促成原因)与否不明确的信息。

英国生物银行(UK Biobank)随访队列:纳入标准为 2006–2010 年英国生物银行中的所有个体,排除标准如下:(1)年龄<18 岁;(2)基线信息不完整(例如年龄、性别、空腹血糖 [空腹时间≥8 小时]、胆固醇、天门冬氨酸转氨酶 [AST]、丙氨酸转氨酶 [ALT]、γ- 谷氨酰转移酶 [GGT]、血小板计数等);(3)缺失死亡相关信息,以及肝脏相关死亡和糖尿病相关死亡(死亡的促成原因)与否不明确的信息。

Main variables

人口统计学数据主要包括年龄、性别、种族、教育水平、婚姻状况和经济状况。参与者的性别、年龄、种族、社会经济地位和民族信息为自我报告。未收集性别相关信息。检查数据主要包括体重指数(BMI)、腰围和肝脏硬度测量值(LSM)。实验室数据包括丙氨酸转氨酶(ALT)、天门冬氨酸转氨酶(AST)、γ- 谷氨酰转移酶(GGT)、空腹血糖(空腹时间≥8 小时)、胆固醇和血小板计数等。问卷数据包含饮酒情况、吸烟状态、糖尿病、高血压和降脂治疗信息等。利用这些变量,通过在线网站(https://www.liverriskscore.com/multicalc)的批量计算功能计算并导出 LiverRisk 评分。

Conventional non-invasive tools for identifying liver fibrosis

用于识别肝纤维化的传统无创工具包括 FIB-4、APRI、AAR、GPR、纤维化指数 和 Forns 指数评分 ,计算这些评分是为了与 LiverRisk 评分比较对肝纤维化的预测准确性。各评分的计算公式如下:
FIB-4 =(年龄 ×AST)/[(血小板计数)×ALT^(1/2)];
APRI = [(AST/AST 正常上限)×100]/ 血小板计数;
AAR = AST/ALT;
GPR =(GGT/GGT 正常上限)/(血小板计数)×100;
纤维化指数 = 8.0 - 0.013× 血小板计数 - 白蛋白;
Forns 指数评分 = 7.811 - 3.131×ln(血小板计数) + 0.781×ln(GGT) + 3.467×ln(年龄) - 0.014× 胆固醇。

Definitions

cACLD 反映了在无症状阶段,晚期纤维化和肝硬化是一个连续的谱系,这使得在临床背景下区分这两个阶段具有挑战性。32
cACLD 被定义为肝脏硬度测量值(LSM)≥10 kPa。33
MASLD 的诊断标准为存在 hepatic steatosis(受控衰减参数 [CAP]≥274 dB/m)并伴有至少一个心脏代谢危险因素。34,35
乙型肝炎病毒和丙型肝炎病毒感染者分别通过乙型肝炎表面抗原阳性和丙型肝炎抗体阳性来诊断。36
ALD 被定义为大量饮酒(男性每日≥30g,女性每日≥20g)且伴有 hepatic steatosis(CAP≥274 dB/m)

美国国家健康与营养检查调查(NHANES)的调查数据由国家卫生统计中心与国家死亡索引(NDI)相关联。38 英国生物银行(UK Biobank)中的死亡案例数据来源于英格兰和威尔士的国民健康服务(NHS)信息中心以及苏格兰的 NHS 中央登记处保存的死亡证明。39
糖尿病相关死亡根据国际疾病分类第十版==(ICD-10)中的 E10-E14 编码==进行分类。25
肝脏相关死亡的确定参考了以往文献 1,并额外纳入了 ICD-10 中的 B15-B19 编码,因为我们在基线时未排除肝病患者。若糖尿病相关死亡和肝脏相关死亡是死亡的促成原因(主要死亡原因或多种死亡原因之一),则对其进行定义为糖尿病相关死亡和肝脏相关死亡。25
非糖尿病相关死亡和非肝脏相关死亡被定义为竞争事件。

在美国国家健康与营养检查调查(NHANES)数据库中,种族被划分为非西班牙裔白人、非西班牙裔黑人、西班牙裔(墨西哥裔美国人、其他西班牙裔)及其他种族。
教育水平分为未高中毕业和高中毕业两类。
婚姻状况分为已婚或与伴侣同居以及其他情况两类。
经济状况根据家庭收入与贫困线的比率划分,分为 < 1(贫困线以下)或≥1.00(贫困线及以上)。
当前吸烟者指的是那些一生中至少吸过 100 支香烟且报告仍在吸烟的人。
糖尿病的确诊标准为空腹血糖水平≥7.0 mmol/L、糖化血红蛋白≥6.5%,或正在使用降糖药或胰岛素。40
瞬时弹性成像的操作流程和质量保证已在其他文献中有所阐述。

目前,基于 FIB-4 的诊疗路径是识别肝纤维化最广泛使用的方法。欧洲肝脏研究学会(EASL)、美国肝病研究学会(AASLD)和美国胃肠病学会(AGA)的最新指南均建议,FIB-4≥1.3 的个体应进一步接受瞬时弹性成像(TE)检查,以识别代偿性晚期慢性肝病(cACLD)。

Cost-effectiveness analysis

构建了一个决策分析模型(数据 S2),从美国医疗部门的角度,在终身时间范围内模拟某一假设的成年普通人群队列进行肝纤维化评估时,与肝病相关的潜在筛查结果。本研究评估了两种策略:LiverRisk 评分和 FIB-4。若筛查结果为代偿性晚期慢性肝病(cACLD),则建议患者转诊。社区中肝病的发病率与受该疾病影响的表面健康人群比例呈正相关。在本模型中,普通人群的肝病患病率为 1.8%。42 圆形机会节点代表患者可能遭遇两种或两种以上潜在事件的节点。这些概率由某一特定事件在机会节点发生的可能性来定义。通过将路径上从左到右的概率相乘,可估算出每条路径的概率。预期成本和结果是通过汇总每条路径的数值(按各自的概率加权)得出的,最终形成一个三角形终端节点。所示的双圆形机会节点包含五种不同的事件,分别是 “无事件”“失代偿性肝硬化”“肝细胞癌”“原位肝移植” 和 “死亡”。本模型采用 3.0% 的贴现率。43 支付意愿(WTP)阈值设定为 50,000 美元 / 质量调整生命年(QALY)。44 本分析使用 TreeAge Pro 2023 R2 软件(TreeAge Software 公司,马萨诸塞州威廉斯敦)完成。

Cost

成本分析是从美国医疗服务提供者的角度进行的。该模型所包含的成本为直接医疗成本,包括筛查测试、影像学检查、治疗、随访、日常医疗开销以及死亡相关成本。
由于NHANES数据库或其他期刊文章中未明确LiverRisk评分每次检测的价格,且与LiverRisk评分筛查相比,FIB-4筛查缺少空腹血糖、胆固醇和γ-谷氨酰转移酶(GGT)的检测项目,因此,我们基于美国的FIB-4、空腹血糖、总胆固醇和GGT的价格计算了该数值。其他参数来源于已发表的文献、公开报告以及以往的卫生经济学评估研究(表S5)

效用值 Utilities

每种筛查策略的有效性均通过肝病筛查质量调整生命年(QALY)进行评估。肝病相关筛查所带来的预期质量调整生命年收益,是根据患者在每种健康状态下花费的时间及其相应的健康状态效用估算得出的。本模型中健康个体的特定年龄效用值,来自美国一项针对慢性疾病开展的全国性健康相关生活质量综合研究。同时,还参考了全球卫生观察站美国生命表数据中报告的特定年龄剩余预期寿命。其他健康状态值则来源于已发表的文献(表S5)

Probabilities and Other clinical parameters

LiverRisk评分/FIB-4至低/中/高风险的转化率来自NHANES。其他转化率、死亡率等则来源于已发表的文献和专家意见(表S5)。

量化与统计分析

诊断性能和预后价值的评估

采用反向 Kaplan-Meier 法计算中位随访时间
通过曲线下面积(AUC)、灵敏度、特异度、阳性预测值(PPV)和阴性预测值(NPV)评估肝纤维化的预测准确性。
采用 DeLong 法比较 LiverRisk 评分与其他传统评分的 AUC
通过 Hosmer-Lemeshow 检验和校准曲线评估拟合优度。采用 logistic 回归模型评估肝纤维化的预测因素。
在竞争风险模型中,通过 R 语言的 riskRegression 包计算并比较 5 年、10 年和 15 年肝脏相关及糖尿病相关死亡率的 AUC。采用 Fine-Gray 竞争风险回归分析估计亚分布风险比(SHR)。在不同年龄、性别和种族群体中进行敏感性分析,以评估结果的稳健性。

分析采用 IBM SPSS 25.0(IBM 公司,美国伊利诺伊州芝加哥)和 R(4.1.3 版本)软件进行。

成本效益分析的敏感性分析

在本研究中,所有模型输入均通过确定性敏感性分析在表S5规定的范围内进行了检验。采用单向敏感性分析来描述每个输入变量与主要结局(成本和质量调整生命年)之间的关联,以检验基准案例结果的稳健性。文献中对输入参数的区间估计采用95%置信区间(CI)或四分位数间距(IQR)。当现有文献中未提供区间估计时,使用STATA 18(StataCorp公司,美国得克萨斯州)计算95%置信区间。

结果

Patient characteristics

横断面队列、美国国家健康与营养调查(NHANES)随访队列和英国生物银行(UK Biobank)随访队列分别纳入了3770人、25317人和17259人。研究人群的基线特征和流程图分别见表1和图S1。
image.png

根据选定的LiverRisk评分 cutoff值(6、10和15)1,横断面队列中的个体被分为四个风险组:极低风险组(71.7%,n=2704)、低风险组(25.9%,n=975)、中风险组(2.2%,n=83)和高风险组(0.2%,n=8)(图S2)。
image.png

NHANES随访队列和英国生物银行随访队列中,高风险组分别仅占0.2%(n=54)和0.3%(n=57)。在横断面队列中,肝脏硬度测量值(LSMs)≥6 kPa、≥10 kPa和≥15 kPa的个体比例分别为29.0%、6.3%和2.9%。NHANES随访队列和英国生物银行随访队列的中位随访时间分别为10.7年(四分位距[IQR]10.6–10.8)和15.0年(IQR15.0–15.1)。

横断面队列中LiverRisk评分的诊断性能和校准情况

与传统评分相比,LiverRisk评分与肝脏硬度测量值(LSM)的相关性最强(=0.31,<0.001,图S3)。
image.png

相较于FIB-4、天冬氨酸转氨酶与血小板计数比值指数(APRI)、天冬氨酸转氨酶与丙氨酸转氨酶比值(AAR)、γ-谷氨酰转移酶与血小板计数比值(GPR)、纤维化指数及Forns指数评分,LiverRisk评分的准确性显著更高。其预测LSM≥6 kPa的受试者工作特征曲线下面积(AUC)为0.68(95%置信区间[CI]0.66–0.70),预测代偿性晚期慢性肝病(cACLD)的AUC为0.76(95%CI 0.72–0.79),预测LSM≥15 kPa的AUC为0.78(95%CI 0.73–0.83)(均p<0.05,表2)。值得注意的是,LiverRisk评分及其他非侵入性工具对cACLD的阴性预测值(NPVs)均超过90%。对患有不同肝病(代谢功能障碍相关性脂肪性肝病[MASLD]、慢性病毒性肝炎、酒精相关性肝病[ALD])及不同种族(非西班牙裔白人、非西班牙裔黑人、西班牙裔及其他种族)的参与者进行的敏感性分析显示,LiverRisk评分始终优于或与其他传统评分相当(表S1和表S2)。

表S1. LiverRisk评分、TSB-4、APRI、AAR、GPT、纤维化指数和Forns评分在预测横断面队列中不同病因个体肝脏硬度方面的区分准确性,与表2相关(每个病因分组,即MASLD、ALD各一组,分别看AUC等

表S2. LiverRisk评分、TSB-4、APRI、AAR、GPT、纤维化指数和Forns评分在预测横断面队列中不同种族个体肝脏硬度方面的区分准确性,与表2相关

Hosmer-Lemeshow检验和校准曲线显示,LiverRisk评分的校准效果良好,预测肝脏硬度测量值(LSM)≥6 kPa(=0.368;图1A)和代偿性晚期慢性肝病(cACLD)(p=0.152;图1B)时均是如此。然而,其预测LSM≥15 kPa(p=0.045)的校准效果相对较差。尽管如此,LiverRisk评分的校准结果仍优于传统评分(图1C)。

肝脏风险、FIB-4、APRI、AAR、GPR、纤维化指数和Forns指数评分在预测横断面队列中LSM ≥ 6 kPa(A)、cACLD(B)和LSM≥15 kPa(C)的校准曲线。
校准曲线直观呈现了预测概率与实际观察结果的一致性,Hosmer-Lemeshow 检验则通过统计学方法量化这种一致性(p 值越大,表明校准效果越好)。
校准曲线通过将 LiverRisk 评分的预测概率与实际发生的肝纤维化情况(如不同 LSM 阈值对应的肝纤维化状态)进行对比绘制而成。曲线的贴合程度反映了预测准确性,若曲线接近对角线,说明预测概率与实际结果一致性高,校准效果好。
校准曲线关注 “预测概率准不准”,ROC 曲线关注 “模型能不能有效区分事件发生与否”。

此外,单变量和多变量逻辑回归分析进一步证实,无论体重指数(BMI)、腰围、种族、教育水平、婚姻状况、经济状况和吸烟状态如何,LiverRisk评分都是肝纤维化的独立预测因子(表S3)。

通过LiverRisk评分划分的三个新风险组

采用LiverRisk评分的6、10和15作为临界值时,大量肝脏硬度升高的个体被归入低风险组和中风险组(图S2)。令人惊讶的是,即使在低风险组中,代偿性晚期慢性肝病(cACLD)的比例仍>10%,且肝脏硬度测量值(LSM)≥6 kPa的比例超过40%。因此,我们采用6和10作为临界值,将参与者重新分为低风险组、中风险组和高风险组。低风险组、中风险组和高风险组的平均LSM分别为5.3 kPa、7.2 kPa和12.2 kPa,对应的cACLD比例分别为3.0%、12.2%和38.5%(图2A和2B)。
image.png
在美国国家健康与营养调查(NHANES)随访队列和英国生物银行(UK Biobank)随访队列中,全因死亡率的累积发生率均随LiverRisk风险组级别的升高而逐渐增加(均p<0.001,图S4)。
image.png

在NHANES随访队列中,低风险组、中风险组和高风险组的死亡比例分别为10.4%、25.1%和33.3%;在英国生物银行随访队列中,相应比例分别为8.9%、18.8%和41.2%。
与基于Fibrosis-4指数(FIB-4)的诊疗路径(图S5)相比,在横断面队列中实施基于LiverRisk评分的诊疗路径能显著识别出更多的cACLD患者(65.3%[154/236] vs. 47.5%[112/236],p<0.001)。
image.png

LiverRisk评分对肝脏相关死亡率的预测性能及风险分层

在英国生物银行(UK Biobank)随访队列中,低风险组、中风险组和高风险组的肝脏相关死亡率比例分别为0.2%、2.2%和14.9%。
LiverRisk评分预测5年、10年和15年肝脏相关死亡率的相应受试者工作特征曲线下面积(AUC)分别为0.95(0.91–1.00)、0.88(0.83–0.92)和0.87(0.83–0.91),均优于FIB-4评分(图3A–3C)。
image.png

与低风险组相比,中风险组和高风险组的肝脏相关死亡率亚分布危险比(SHRs)分别为11.50(7.31–18.20)和87.30(53.21–143.30)(图3D)。

在该研究中,亚分布危险比(subdistribution hazard ratios, SHRs)用于评估在存在竞争风险(即除所关注结局外,其他可能导致事件发生的因素)情况下,不同LiverRisk风险组之间结局事件(如肝脏相关死亡率、糖尿病相关死亡率)的风险差异。 例如,在英国生物银行随访队列中,与低风险组相比,中风险组和高风险组的肝脏相关死亡率的SHRs分别为11.50(7.31–18.20)和87.30(53.21–143.30),这表明在考虑其他竞争风险后,中风险组和高风险组发生肝脏相关死亡的风险分别是低风险组的11.50倍和87.30倍;在NHANES和英国生物银行随访队列中,中、高风险组的糖尿病相关死亡率的SHRs也呈现类似的风险递增趋势,且均具有统计学意义(均p<0.001)。 SHRs通过调整竞争风险的影响,能更准确地反映所关注暴露因素(此处为LiverRisk风险分组)与结局事件之间的关联强度,是处理生存分析中竞争风险数据的重要指标。

在生存分析中,SHRs(亚分布危险比)和HRs(危险比)的核心区别在于对竞争风险的处理不同: HRs适用于不存在竞争风险的场景,用于评估暴露因素对所关注结局事件发生风险的影响,假设所有研究对象最终都会经历所关注的结局或被截尾。例如,在传统的 Cox 比例风险模型中,HRs 反映的是两组风险函数的比值,不考虑其他可能导致研究终止的事件。 SHRs 则专门用于存在竞争风险的情况,当研究中除了所关注的结局事件外,还存在其他可能导致个体退出研究的事件(即竞争风险事件)时,SHRs 可以更准确地估计暴露因素与所关注结局之间的关联。它通过考虑竞争风险事件的发生概率,调整了传统 HRs 可能产生的偏倚,更贴合实际临床场景中多种事件可能同时发生的情况。 在该研究中,由于评估肝脏相关死亡率、糖尿病相关死亡率等结局时,可能存在其他死亡原因等竞争风险,因此采用 SHRs 来更精准地反映不同 LiverRisk 风险组之间的结局风险差异。
在该研究涉及的生存分析中,亚分布危险比(SHRs)用于处理存在竞争风险的场景,其计算基于Fine-Gray模型。该模型通过构建亚分布累积风险函数,将竞争风险事件纳入考虑,估计在竞争风险存在时所关注结局事件的风险比。 具体而言,计算过程会先明确所关注的结局事件和竞争风险事件,然后基于研究数据拟合Fine-Gray比例风险模型,通过模型参数估计得到不同组别(如该研究中的不同LiverRisk风险组)相对于参照组的SHRs,以此反映在考虑竞争风险后,各组发生所关注结局事件的风险差异。 这种方法不同于传统的Cox比例风险模型(计算HRs),它更适用于当研究对象可能因竞争风险事件(如其他原因死亡)而无法观察到所关注结局时的情况,能更准确地评估暴露因素与所关注结局的关联。

在敏感性分析中,我们按年龄、性别和种族对个体进行分层,结果显示,随着LiverRisk风险组级别的升高,肝脏相关死亡风险增加,且均具有统计学意义(均p<0.001,图S6)。
image.png

LiverRisk评分对糖尿病相关死亡率的预测性能及风险分层

在NHANES随访队列中,低风险组、中风险组和高风险组的糖尿病相关死亡率比例分别为0.7%、4.5%和8.2%;在英国生物银行随访队列中,相应比例分别为0.4%、2.9%和4.7%(均p<0.001)。
NHANES随访队列中,LiverRisk评分预测5年、10年和15年糖尿病相关死亡率的相应受试者工作特征曲线下面积(AUC)分别为0.84(0.81–0.87)、0.84(0.81–0.86)和0.83(0.80–0.85)(图4A–4C);英国生物银行随访队列中,相应的AUC分别为0.94(0.91–0.96)、0.84(0.80–0.89)和0.83(0.80–0.86)(图4D–4F),且均显著优于FIB-4(均p<0.05)。

此外,在NHANES随访队列中,与低风险组相比,中风险组和高风险组的糖尿病相关死亡率对应的亚分布危险比(SHRs)分别为7.75(6.30–9.54)和13.88(9.83–19.60);在英国生物银行随访队列中,相应的亚分布危险比分别为6.65(4.79–9.24)和10.83(5.84–20.10)(均p<0.001,图4G和4H)。在敏感性分析中,在不同年龄、性别和种族群体中,NHANES随访队列和英国生物银行随访队列的中风险组和高风险组的糖尿病相关死亡率累积发生率均显著高于低风险组(数据S1)。

成本效益分析

决策分析模型(数据S2 1)和基准案例(表3)结果分别见数据S2和表3。与FIB-4相比,LiverRisk评分使每位患者的成本增加了193美元,质量调整生命年(QALYs)增加了0.0106。分析显示,与FIB-4策略相比,LiverRisk评分的增量成本效益比(ICER)为每获得1个质量调整生命年需18,170美元。数据S2直观对比了LiverRisk评分与FIB-4策略的成本效益。

在该研究的成本效益分析中,基准案例结果(base-case results)是指在预设的标准参数和假设条件下,对LiverRisk评分与FIB-4策略进行比较所得到的基础分析结果。 具体而言,其显示与FIB-4相比,LiverRisk评分使每位患者的成本增加193美元,质量调整生命年(QALYs)增加0.0106,对应的增量成本效益比(ICER)为每获得1个QALY需18,170美元,该结果是后续敏感性分析等的参照基准。
成本增加方面,可能综合考虑了采用 LiverRisk 评分时额外的检测、评估等流程所产生的费用,与 FIB-4 策略的成本相减后得到每位患者 193 美元的增量成本。
QALYs 的增加则结合了患者在不同健康状态下的生存时间以及对应的生活质量权重,通过计算 LiverRisk 评分策略下患者获得的 QALYs 与 FIB-4 策略下的差值,得出 0.0106 的增量。在本研究相关的成本效益分析中,生活质量权重的确定可能结合了肝病或代谢疾病患者的健康状态特征,通过上述方法之一或综合多种方法,将不同健康结局(如有无 cACLD、不同 LiverRisk 风险组对应的健康状态等)转化为可用于计算 QALYs 的效用值,以反映 LiverRisk 评分与 FIB-4 策略在健康效益上的差异。
image.png

在成本效益分析中,带有支付意愿(WTP)线的成本效益图是用于直观展示不同策略经济性的工具。 该图通常以增量成本为横轴、增量质量调整生命年(QALYs)为纵轴,每个点代表一种策略相对于参照策略的成本和效益变化。WTP线则是一条从原点出发的斜线,其斜率代表决策者或社会愿意为每增加1个QALY所支付的最高成本(例如常见的每QALY 5万美元或10万美元)。 当某策略对应的点位于WTP线下方时,表明该策略的增量成本效益比(ICER)低于WTP阈值,被认为具有成本效益;若在WTP线上方,则可能不被认为具有经济性。 在本研究相关的成本效益分析中,此类图表(如数据S2中所示)可用于对比LiverRisk评分与FIB-4策略,通过观察两者在图中的位置与WTP线的关系,直观判断LiverRisk评分的经济性。
(斜率是关键,0.001:50)

此外,单因素敏感性分析结果显示,基准案例结果具有稳健性,在所有模型输入变量的变化范围内均未发现增量成本效益比(ICER)的阈值。单因素敏感性分析中确定的对LiverRisk评分与FIB-4的ICER影响最大的10个因素见数据S2。

LiverRisk评分与TSB- 4的单向确定性敏感性分析的Tornado图。 条代表每个参数输入下限和上限的增量成本效益比(ICER),与基本案例分析的ICER不同
在成本效益分析中,增量成本效益比(ICER)的阈值通常是指社会或决策者愿意为每获得一个质量调整生命年(QALY)所支付的最高成本,该阈值用于判断一项干预措施是否具有成本效益。 不同国家和地区由于经济水平、卫生政策等因素,ICER阈值存在差异。例如,一些高收入国家常将每QALY 5万至10万美元作为常见的阈值参考范围,当一项干预措施的ICER低于该阈值时,通常被认为具有合理的成本效益;若高于该阈值,则可能需要进一步评估其性价比。 在本研究中,LiverRisk评分相较于FIB-4策略的ICER为每获得1个QALY需18,170美元,该数值是否在可接受范围内,需结合具体的阈值标准来判断。

在这10个关键参数中,“中风险组和高风险组的LiverRisk评分真阳性率”是影响最大的参数,降低20%会使LiverRisk评分的基线ICER改变近2.5倍;而第二个最相关的参数“FIB-4高风险且非代偿性晚期慢性肝病(cACLD)”降低10%时,LiverRisk评分的基线ICER降低6.1%。此外,当FIB-4高风险且非cACLD的概率降至<0.807时,LiverRisk评分具有成本节约优势。

讨论

本研究基于三个前瞻性队列的大样本量,报告了三项关键发现。首先,研究结果表明,LiverRisk评分对肝脏相关和糖尿病相关死亡率具有出色的预测准确性,并能对人群进行肝脏相关和糖尿病相关死亡率的风险分层
其次,研究在美国全国代表性成人的人群筛查中,首次对LiverRisk评分预测肝脏硬度程度进行了外部验证
值得注意的是,LiverRisk评分优于传统评分,包括FIB-4、APRI、AAR、GPR、纤维化指数和Forns指数评分。
最后,研究对基于LiverRisk的代偿性晚期慢性肝病(cACLD)早期检测护理路径进行了成本效益分析

在我们的研究中,我们发现与Serra-Burriel等人的研究相比,LiverRisk评分的诊断准确性相对较低¹。有几个原因可以解释这种差异。Serra-Burriel等人的研究人群包括一些用于推导评分的肝纤维化高危队列(表S4)。肝纤维化患病率的增加可能有助于提高评分的诊断性能⁴。此外,我们的研究涵盖了更多样化的人群,不仅限于以白人为主的人群。我们的分析还显示,与其他种族相比,非西班牙裔黑人个体的LiverRisk评分准确性较低。尽管如此,其预测效果仍然优于其他传统评分。值得注意的是,我们并未排除患有其他慢性肝病(如慢性病毒性肝炎)的患者,因为在现实环境中,患者可能合并未被检测到的肝纤维化。肝纤维化的早期检测对预后至关重要¹⁵。此外,传统评分的一个主要挑战是其诊断性能受不同病因影响而存在差异⁴。因此,我们还对慢性病毒性肝炎、酒精性肝病(ALD)和代谢相关脂肪性肝病(MASLD)患者进行了亚组分析,结果表明LiverRisk评分的准确性具有一致性。

Serra-Burriel等人开展的研究中,LiverRisk评分可将个体分为四组,各组的肝脏相关结局风险存在显著差异。然而,分组越多,在明确建议哪些人应转诊至肝病科医生或接受进一步纤维化评估时,往往会产生一些困惑。我们发现,高风险组的占比极低,在横断面队列中仅占0.2%,而29%的患者存在肝脏硬度升高,代偿性晚期慢性肝病(cACLD)占6.3%。即便在低风险组中,仍有12.2%的个体患有cACLD,45.1%的个体存在肝脏硬度测量值(LSMs)升高的情况。此外,在样本量相对较小的研究中,个体差异可能会产生显著影响(我们的数据显示,在3770名个体中,仅8例为高风险病例)。

#重新分组 #分析套路
因此,通过采用LiverRisk评分6分和10分的临界值,我们将普通人群重新分为低风险组、中风险组和高风险组,且各组的肝脏相关死亡率逐步升高。经LiverRisk评分分层的这三个新组别,能够识别出全因死亡率和肝脏相关死亡率显著更高的人群。低风险组无需特殊护理,常规建议保持或养成健康的生活方式;中风险组建议接受进一步的瞬时弹性成像(TE)检查以确认是否存在代偿性晚期慢性肝病(cACLD);高风险组则建议转诊至肝病门诊(图S5)。
此外,我们对比了这种基于LiverRisk的诊疗路径与基于FIB-4的诊疗路径的成本效益,发现在基准案例分析中,增量成本效益比(ICER)为18,170美元/质量调整生命年(QALY),远低于50,000美元/QALY的支付意愿阈值。单因素敏感性分析结果也显示,LiverRisk评分成本效益的基准案例结果具有高度稳健性,在所有分析范围内均未出现改变基准案例成本效益结果的阈值。成本效益的变化主要取决于中高风险组的LiverRisk评分真阳性率、FIB-4高风险且非cACLD的情况、LiverRisk评分高风险且非cACLD的情况以及平均年龄。
我们观察到,当FIB-4高风险且非cACLD的概率降低时,LiverRisk评分具有成本节约优势,这表明政策制定者可能会考虑在风险较低的人群中更重视采用这种筛查策略。这将有助于优化资源配置,并为将密集筛查工作集中在最可能获益的个体身上奠定基础。

最近,Zhang等人开展的一项务实性随机对照试验表明,将无创评分整合到自动化纤维化评分计算和电子提醒中,可显著提高非肝病科室中2型糖尿病患者的转诊率¹⁵。然而,该研究显示,在转诊患者中,干预组与对照组在代偿性晚期慢性肝病(cACLD)和肝脏硬度测量值≥15 kPa的情况上无显著差异。这表明现有的无创评分对普通人群肝纤维化的诊断价值较低⁹,因此我们认为,将LiverRisk评分整合到电子系统中以评估转诊率和识别cACLD患者是一项值得探索的工作。

已知慢性肝病与糖尿病常共存,且两者协同作用会增加不良临床结局(肝脏及肝外结局[主要为糖尿病和心血管事件])的发生风险。14,17,19 糖尿病患者中晚期纤维化的患病率超过10%,且肝纤维化会显著增加糖尿病患者的死亡风险及其他不良结局的发生风险。14,21,22 已有建议提出,糖尿病患者应定期进行肝脏健康检查,以早期发现晚期纤维化。11–14 此外,越来越多的临床和流行病学证据表明,肝纤维化的严重程度与糖尿病发病风险升高存在关联。18–20 因此,本研究在两个大型随访队列中进一步探究了LiverRisk评分对糖尿病相关死亡率的预测价值。研究结果显示,LiverRisk评分具有出色的预测准确性,其对5年、10年和15年糖尿病相关死亡率的预测曲线下面积(AUCs)均超过0.8。LiverRisk评分在预测长期糖尿病相关死亡率方面的准确性优于FIB-4。这一差异可能源于LiverRisk评分中纳入了空腹血糖这一指标,而空腹血糖是糖尿病相关死亡率的强预测因子。1 此外,经LiverRisk评分评估为高风险的人群可能会有更多新发糖尿病病例,18,20 这潜在地导致了更高的糖尿病相关死亡风险。

总之,LiverRisk评分是一种准确且具有成本效益的工具,可用于预测普通人群的肝纤维化、肝脏相关死亡率及糖尿病相关死亡率。

Limitations of the study

本研究存在一些局限性。
首先,NHANES数据库从2017年才开始测量肝脏硬度值(LSMs),导致该日期之前的个体存在LSM数据缺失;此外,NHANES队列中与肝脏相关的死亡率数据属于限制使用数据,尚未向公众披露。 #?
其次,决策分析模型将结局简化为肝病筛查的关键临床事件,可能无法充分反映肝病管理和结局的复杂性。
需要注意的是,与FIB-4评分相比,LiverRisk评分纳入了空腹血糖作为参数。但由于缺乏普通人群中肝纤维化向糖尿病转化的转化率及健康状态值相关数据,我们无法考虑这些潜在参数。
第三,本研究未纳入合并症、肝病病史、纤维化风险及治疗不良事件,因此,两种筛查方案的总成本可能被低估
最后,成本分析仅局限于医疗服务提供者的视角,未考虑生产力损失等间接成本。从社会视角出发,对肝病筛查进行包括直接成本和间接成本在内的卫生经济学评估是非常有必要的。